Determinación del género de autores de textos cortos a través de n-gramas
نویسندگان
چکیده
Nowadays, the possibilities for communicating or expressing through an electronic way are very wide: e-mail, social networks, chats and other ways are used by the majority of computer and mobile device users. One of the problemas that is presented in this communication way is excess, such as plagiarism, identitiy falsification, blackmailing, etc. Text authorship attribution (TAA) is in charge of answering authoring issues by providing previous examples from said author (training set). A useful process within TAA is sex or gender identification (male, female), which has been studied by many authors for its use in English mostly. The present work proposes a computational model 57 Research in Computing Science 115 (2016) pp. 57–66; rec. 2016-04-22; acc. 2016-05-18 based on lexical characteristics (n-grams) for gender identification in short texts in Spanish. Tests were carried out with a corpus from social network and blog text messages, producing promising results.
منابع مشابه
Herramienta de apoyo en la detección de reutilización de código fuente
Resumen. El acto de tomar parcial o totalmente contenidos generados por otras personas, y presentarlos como propios, sin dar el crédito correspondiente a los autores, es una forma indebida de reutilización de contenidos, considerada como plagio. Desafortunamente, en la actualidad, dada la amplia disponibilidad de contenidos a través de Internet, esta práctica se ha incrementado. La gran mayoŕıa...
متن کاملClustering Iterativo de Textos Cortos con Representaciones basadas en Conceptos
Resumen La tendencia actual a trabajar con documentos cortos (blogs, mensajes de textos, y otros), ha generado un interés creciente en las técnicas de procesamiento automáticas de documentos con estas caracteŕısticas. En este contexto, el “clustering” (agrupamiento) de textos cortos es un área muy importante de investigación, que puede jugar un rol fundamental en organizar estos grandes volúmen...
متن کاملCharacterization of Legal Psychology through psychology journals included in Criminology & Penology and Law categories of Web of Science
Título: Caracterización de la Psicología Jurídica a través de las revistas de psicología incluidas en las categorías Criminology & Penology y Law de la Web of Science. Resumen: El objetivo del presente trabajo es conocer los aspectos más relevantes que caracterizan a la Psicología Jurídica contemporánea a través del estudio de las revistas de la WoS en los años 2009 y 2014 relacionadas con esta...
متن کاملTextos subjetivos y objetivos: un estudio sobre reconocimiento de subjetividad en corpus
Resumen. En este art́ıculo se describe un estudio exploratorio en el que se analiza cómo la subjetividad es expresada a través de elementos léxicos (subjetivemas) en un corpus de art́ıculos period́ısticos en español. En particular, dos tipos de textos constituyen el corpus: la nota informativa (texto expositivo) y la columna de opinión (texto argumentativo). El objetivo es identificar elementos qu...
متن کاملSTILUS: Sistema de revisión lingüistica de textos en castellano
STILUS es el producto de tecnología lingüística de DAEDALUS S.A. para la revisión ortográfica, gramatical y de estilo de gran calidad de textos en castellano. Con STILUS se puede revisar cualquier texto, ya se trate de un documento de cualquier procesador de textos o de una página web, y obtener un informe detallado y preciso con los errores ortográficos, gramaticales y de estilo detectados. El...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- Research in Computing Science
دوره 115 شماره
صفحات -
تاریخ انتشار 2016